from langchain.document_loaders.generic import GenericLoader
from langchain.document_loaders.parsers import OpenAIWhisperParser
from langchain.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader

if __name__ == '__main__':
    url="https://www.youtube.com/watch?v=_PHdzsQaDgw"
    save_dir="./docs/youtube-zh/"
    # 创建一个 GenericLoader Class 实例
    loader = GenericLoader(
        #将链接url中的Youtube视频的音频下载下来,存在本地路径save_dir
        YoutubeAudioLoader([url], save_dir),
        #使用OpenAIWhisperPaser解析器将音频转化为文本
        OpenAIWhisperParser()
    )
    # 调用 GenericLoader Class 的函数 load对视频的音频文件进行加载
    pages = loader.load()


    print("Type of pages: ", type(pages))
    print("Length of pages: ", len(pages))
    page = pages[0]
    print("Type of page: ", type(page))
    print("Page_content: ", page.page_content[:500])
    print("Meta Data: ", page.metadata)